15. 発展的学習によせて
https://gyazo.com/4f7dfd91756d579cff6ea820ee6ff329
https://amzn.to/32dVAdF
15.1. 総括と展望
このまま検定の一般理論の知識・理解がない状態で、さらなる心理統計法の学習を進めても困ったことは生じない
上級の心理統計モデルではもともと有意性検定が重視されていない
有意性検定は比較的初歩の心理統計モデルにおいて重視されてきた
「平均の推測」「独立した2群の差」「相関係数」「対応ある2群の差」「実験計画法」「比率・連関」
しかし、モデルが複雑になると、その複雑さの度合いに応じて、次第に母数推定が重視される傾向が生じる
「回帰分析」
因子分析などさらなる心理統計の領域ではこの逆転傾向はますます強まる
そもそもbigデータ解析では端からまったく有意性検定は使われない
初心者にはあって邪魔になる知識というものがある
ただし検定を使った古い論文等が読めないのは困るので、過渡期には、検定の手続き的知識だけは暗記する必要があろう
15.2. 相関関係の分析
構成概念(construct)
その存在をとりあえず仮定することによって複雑に込み入った現象を比較的単純に理解することを目的にした概念
潜在変数(latent variable)
構成概念を表現するための数理的表現
15.2.1. 因子分析法
潜在変数モデルは心理統計学の分野で高度に発展している
潜在変数モデルの中で心理学研究に最も利用される手法が因子分析法
因子分析モデル(factor analysis model)
少数の構成概念(因子)によって多変量データの状態を説明するための潜在変数モデル
探索的因子分析(exploratory factor analysis)
構成概念に関する心理学的仮説がなくても分析が可能
スピアマンによって創始(1906)
知能の1因子説
サーストンが因子分析モデルを完成させた(1930年代)
知能の多因子説
確認的因子分析(confirmatory factor analysis)
心理学的な仮説を利用して因子分析を行う
https://gyazo.com/3b4af00680c228bc6b2f80e5c01f7895
パス図では、観測される変数は四角形で表現され、$ v_1から$ v_5まで5つ描かれている
因子分析では構成概念を因子(factor)と呼び、パス図には$ f_1と$ f_2の2つが描かれている
影響関係を矢印で表現する
因子から観測される変数に引かれた単方向の矢印に付された係数を因子負荷(factor loading)といい、因子感の両方向の矢印に付された係数($ r(f_1, f_2) = 0.498)を因子間相関(Inter-factor correlation)という
パス図(path diagram, パスダイアグラム)を利用すると、分析モデルと分析結果を同時に伝えることが可能
構成した分析モデルの意図を第三者に伝えやすくなる
このため因子分析に限らず、多くの潜在変数モデルではパス図による表現が利用される
15.2.2. パス解析
パス解析(path analysis)
複数の回帰式を同時に分析する手法
たとえば図15-2のようにパス図によってパス解析も表現できる
https://gyazo.com/1b58b8d94e69634540c64abb964ba5d4
外生変数(exogenous variable)
パス図の中で単方向の矢印を1度も受け取っていない変数
モデルの外側で生まれた変数
$ v_1と$ v_2
内生変数(endogenous variable)
単方向の矢印を受け取っている変数
$ v_3と$ v_4と$ v_5
内生変数は回帰モデルの基準変数に相当し、回帰式の左辺に置かれる
したがって、パス図には内生変数の数だけ回帰式が存在する
単方向の矢印は偏回帰係数を表現している
したがって、内生変数に刺さった矢印の数はそれぞれの回帰式の右辺の項数を表現している
たとえば図15-2は3本の回帰式と1つの相関係数を同時に表している
$ \begin{aligned} v_3 & = 0.38 \times v_1 + 残差 \\ v_4 & = 0.11 \times v_1 + 0.25 \times v_2 + 残差, \\ v_5 & = 0.10 \times v_2 + 0.45 \times v_3 + 0.25 \times v_4 + 残差, \\ r(v_1, v_2) & = 0.29 \end{aligned}
15.2.3. 共分散構造分析
共分散構造分析(covariance structure analysis)または構造方程式モデリング(structural equation modeling, SEM)
因子分析とパス解析を同時に行う統合的な分析手法
https://gyazo.com/5676b7ed8c89142c8b99559521ce5c05
共分散構造分析の長所
柔軟なモデル構成力
従来の多変量データの分析手法では固定的な数理モデルにデータの形式を合わせなくてはならなかった
共分散構造分析の登場によりデータ固有のモデルを構成することが可能となった
1つのデータに対して研究仮説を反映した様々なモデルを構成することが可能になった
因子分析やパス解析を含めた共分散構造モデルの母数推定には、最尤推定とベイズ推定を利用できる
本教程では事前分布に一様分布を仮定して学習を進めた
事前分布が一様分布であるならば、共分散構造分析に限らず、最尤推定値はベイズMAP推定値に一致する
15.3. 基準変数の予測
基準変数と予測変数の関係を調べる回帰分析は、応用的にきわめて有用なので、色々な方向に改良されている
改良の方向
基準変数に対する予測変数の寄与の解釈を容易にする
予測できる現象の範囲を拡大する
予測力を向上させる
15.3.1. コンジョイント分析
予測変数間の関係を積極的に無相関にすることによって、基準変数に対する予測変数の寄与の解釈を容易にする第1の方向で、回帰分析を発展させた手法としてコンジョイント分析と決定木がある
コンジョイント分析(conjoint analysis)
「大腸がんデータ」の重回帰分析で明らかになったように、一般的に偏回帰係数や標準回帰係数の解釈は難しい
たとえば「総熱量」と「大腸がん」の相関係数は$ 0.739であり、「酒類」と「大腸がん」の相関係数は$ 0.588
しかし変数選択の結果、「大腸がん」の予測のために残ったのは「酒類」
また「乳製品」と「大腸がん」の相関係数は$ 0.579であり、正の値であったのに「乳製品」の偏回帰係数は負の値であった
予測変数の数が多い場合には、偏回帰係数の解釈は諦めざるを得ない
解釈の難しさの原因は、予測変数間の相関関係にある
もし予測変数が互いに無相関であるならば、偏回帰係数の大きさが基準変数に対する寄与として解釈できることが知られている
データの収集法を工夫し、予測変数を互いに無相関にするために利用するのが直交表(orthogonal table)
直交表に従って収集されたデータから分析された偏回帰係数は、その大きさを基準変数に対する寄与の大きさとして単純に解釈できる
https://gyazo.com/647b21e516ecc6de24622982d7aeeaf2
「女性にアピールするお見合いパーティ」を企画するためのコンジョイント分析を示した結果
「パーティへの参加の意志」に対する以下の8種の予測変数の影響力を調べる
直交表によって24種類のお見合いパーティを企画し、「絶対参加したくない」「酸化したくない」「やや参加したくない」「どちらともいえない」「やや参加したい」「参加したい」「是非参加したい」の7件法で50人の20代女性に評価してもらった
偏回帰係数(図ではカテゴリースコア)の大きさから「年収」「職業」「年齢」「結婚」「学歴」「喫煙」「場所」「お酒」の順に、選好度に影響していることがわかる
当日の要因である「場所」「お酒」の説明の度合いは少ない
「年収」は高いほうが、「職業」は安定している方が、「年齢」は若いほうが、「結婚」は初婚のほうが、「学歴」は大学卒のほうが、「喫煙」はしないほうが好まれている
観察値と予測値の相関係数は$ 0.784であった
偏回帰係数をそのまま解釈できるのは、直交表を使用したため
15.3.2. 決定木
決定木(decision tree)
機械学習の分野から発展した予測のための分析手法
予測変数の値を分岐させながら樹木を成長させ、モデルの構築を行う
基準変数に対する予測変数の寄与が、IF-THENルールによって記述されるために、分析結果が解釈しやすい
タイタニック号事件のときに乗船していた2201名の「生死」を基準変数とし、「性別」「大人子ども」「等級」を予測変数として決定木による分析を行う
https://gyazo.com/0c380a55ca8fe8dc56f8cb2c102db7ec
頭に数字のついた箱をノード(node)という
ノードには現状が示される
ノード1は判断の始まりであり、ルートノード(root node)という
ルートノードには死亡者数が1490人、生還者が711人であることが示されている
ノード4, 10, 11, 6, 7は判断の終点であり、ターミナルノード(terminal node)という
ターミナルノード以外のノードでは、IF-THENルールによって分岐が生じる
yesのときは左、noのときは右に移動する
ルートノードに近い予測変数ほど、基準変数の予測に対する寄与が高いと判断する
ターミナルノードには最終判断が示される
たとえばノード11は「男性かつ子どもで3等に乗っていなければ、16人全員生還し、この条件にあてはまるのは全体の約1%である」
15.3.3. ロジスティック回帰分析
予測できる現象の範囲を2値データ迄広げる第2の方向で回帰分析を発展させた手法を紹介する
14. 重回帰分析で学んだ回帰式(14.2)
$ \hat y_i = a + b_1x_{i1} + \cdots + b_jx_{ij} + \cdots + b_px_{ip}
「大腸がんデータ」は国が測定対象だから「人口10万人あたりの死亡者数」という連続した変数を分析できた
しかし添え字が国ではなく、検診の受診者個人である場合には、10年後に大腸がんで死亡しているか否かを観察することになる
したがって基準変数は連続変数とはならず、2値変数となる
$ u_i = \begin{cases} 1 & 1974年までに大腸がんで死亡した場合 \\ 0 & それ以外の場合 \end{cases} \qquad (15.1)
基準変数が2値である場合には、まず$ \hat y_iを逆ロジット関数(inverse logit function, あるいは逆ロジット変換 inverse logit transformation)によって$ p_iに変換する
$ p_i = \mathrm{logit}^{-1}(\hat y_i) = \frac{1}{1 + \exp(-\hat y_i)} \qquad (15.2)
逆ロジット関数$ \mathrm{logit}^{-1}(\quad) の定義域は区間$ [-\infty, +\infty] であり、値域は区間$ [0, 1] である
https://gyazo.com/6d25450cabc15157595d3d864aa2ae3b
続いて$ u_iがベルヌイ分布(11.5)式
$ f(u_i|p) = p^{u_i}(1-p)^{1-u_i}, \quad u_i = 0, 1
に従うものとして、母数$ a, b_1, \cdots, b_p, \sigma_eの事後分布を求める
そして生成量$ p_iを受診者$ i個人の死亡リスク(確率)として解釈する
ロジスティック回帰分析(logistic regression analysis)
2値の基準変数に対するこのような回帰分析
15.3.4. ニューラルネットワーク
コンジョイント分析と決定木は、基準変数に与える予測変数の影響を解釈しやすくする工夫
それに対して、予測変数の影響の解釈をあきらめる代わりに基準変数の予測力を徹底的に追求した第3の方向のモデル
ニューラルネットワーク(neural network, NN)
NNは人工知能の研究過程で発達した人口神経回路モデル
https://gyazo.com/0ac50c0e5cbe008b9fe5044d21553000
左から右に順番に情報が伝達される
$ \alphaと$ \beta: 入力層のユニット
$ \gammaと$ \deltaと$ \epsilon: 隠れ層のユニット
$ \zetaと$ \etaと$ \kappa: 出力層のユニット
NNに与えられるのは表15-1の「鉛筆データ」
table: 表15-1 「鉛筆データ」
本数 偶奇 ポン ホン ボン
α β ζ η κ
1 1 1 0 0
2 0 0 1 0
3 1 0 0 1
4 0 0 1 0
5 1 0 1 0
6 0 1 0 0
7 1 0 1 0
8 0 1 0 0
9 1 0 1 0
10 0 1 0 0
「本数」「偶奇」が予測変数であり、「ポン」「ホン」「ボン」が基準変数
入力層と隠れ層の関係
$ \hat y_\gamma = a_{\gamma\alpha}\alpha + a_{\gamma\beta}\beta, \quad \hat y_\delta = a_{\delta\alpha}\alpha + a_{\delta\beta}\beta, \quad \hat y_\epsilon = a_{\epsilon\alpha}\alpha + a_{\epsilon\beta}\beta
次に隠れ層のユニット内部で以下のように変換される
$ p_\gamma = \mathrm{logit}^{-1}(\hat y_\gamma), \quad p_\delta = \mathrm{logit}^{-1}(\hat y_\delta), \quad p_\epsilon = \mathrm{logit}^{-1}(\hat y_\epsilon)
最後に以下によって読み方が予測される
$ \zeta = 「ポン」 = b_{\zeta\gamma} \times p_\gamma + b_{\zeta\delta} \times p_\delta + b_{\zeta\epsilon} \times p_\epsilon,
$ \eta = 「ホン」 = b_{\eta\gamma} \times p_\gamma + b_{\eta\delta} \times p_\delta + b_{\eta\epsilon} \times p_\epsilon,
$ \kappa = 「ボン」 = b_{\kappa\gamma} \times p_\gamma + b_{\kappa\delta} \times p_\delta + b_{\kappa\epsilon} \times p_\epsilon
隠れ層のユニット数を増やすことによって、複雑な関係式を表現することができ、予測力が向上する
添字付きの$ aと$ bがNNの母数であり、その値をデータから定めrうことは、統計モデルの観点からは推定といった
しかしNNは人工知能の分野で発達したので母数の推定を機械学習(machine learning)という
機械学習の(母数推定の)方法としては、深層学習(deep learning)が効果的
15.4. その他の有用な心理統計法
テスト理論(test theory)
心理テスト・入学試験・資格試験などのテストを企画・作成・運用・評価するための数理モデル
古典的テスト理論(classical test theory)
項目反応理論(item response theory, IRT)
IRTは比較的大規模な試験を扱うために利用される
重要な研究テーマは1つの論文や研究で決着がつくことは期待できない
複数の研究を統合し、母数の確信区間を狭め、確実性の高い結論を導く必要が生じる
メタ分析(meta analysis)
統計的な分析を統合する時に有効な統計手法
メタ分析ではフォレストプロット(forest plot)を利用して統合結果を表示する
https://gyazo.com/af280078596e4fe7c2229222913c39d2
ロジスティック回帰やNNの節で登場した逆ロジット関数は、回帰式をベルヌイ分布に結びつけるためにしばしば利用される
上述した項目反応理論でも逆ロジット関数が多用されている
逆ロジット関数は、リンク関数と呼ばれる写像関数の一種
一般化線形混合モデル(generalized linear mixed model, GLMM)
さまざまなリンク関数を用い、ベルヌイ分布以外の多くの確率分布に回帰式をリンクさせることが可能
ベイジアン階層線形モデル(Bayesian hierarchical linear model, BHLM)
GLMMを拡張し、事前分布に含まれる母数の事前分布を導入するなどして、さらに広範囲なモデル表現を可能にする手法
心理統計法の入門段階の有意性検定はベイズ的アプローチで代替される
そしてGLMMやBHLMなど、上級の統計モデルでは、ベイズ的アプローチでしか解が求まらないことも珍しくない
心理統計法は遠からず、全般的にベイズ的アプローチが主流となる時代を迎えるだろう